30 research outputs found

    Automatic extraction of term candidates from Course in General Linguistics with resources from corpus linguistics and natural language processing

    Get PDF
    Este trabalho apresenta um estudo em que técnicas de Processamento de Linguagem Natural (PLN) e de Linguística de Corpus (LC) são utilizadas para extrair e estruturar termos relacionados a conceitos importantes de Saussure no texto em português do Curso de Linguística Geral (CLG). Tomando o CLG como um corpus, busca-se um método de representação automática de conteúdo através de ferramentas computacionais. Uma vez submetido ao parser PALAVRAS, um etiquetador morfossintático para a língua portuguesa, o corpus do CLG é processado pela ferramenta extratora de sintagmas nominais relevantes, denominada ExATOlp, que implementa diversas técnicas de PLN de base linguística e de base estatística. Em seguida, são geradas listas e gráficos hierarquizados dos sintagmas nominais do CLG, elencados pela ferramenta como os mais específicos/relevantes do corpus em questão. Esses resultados são comparados com dados gerados pela ferramenta AntConc, ferramenta de acesso livre bastante empregada em trabalhos de LC, aplicada ao mesmo corpus. Os resultados mostram o potencial da ferramenta ExATOlp para trabalhos em LC e para o levantamento de dados lexicais para estudos terminológicos, para a mineração de dados e para a geração de ontologias em língua portuguesa.This paper presents a study based on Natural Language Processing techniques (PLN) and Corpus Linguistics (CL) approaches to extract terms related to important saussurean concepts in the Brazilian Portuguese edition of the Course in General Linguistics. Taking the CGL as a corpus, we aim at an automatic representation method of content through computer tools. Once submitted to the parser PALAVRAS, a morphossyntatic tagger, the corpus is processed by ExATOlp, a tool implementing various linguistic and statistically based NLP techniques. The tool generates hierarchical lists and charts of noun phrases, which are organized according to their specificity / relevance in the target corpus. These lists are then compared to data generated by AntConc - a free access tool quite used in LC approaches - applied to the same corpus. The results show the potential of ExATOlp in works on LC and in colleting lexical data for terminology studies, data mining and generation of ontologies in Portuguese

    Extração automática de termos compostos para construção de ontologias : um experimento na área da saúde

    Get PDF
    Neste artigo mostramos o uso da ferramenta OntoLP no processo de construção de ontologias em um experimento na área da Saúde. Especificamente, faz-se a extração de termos com base em um corpus da área de Pediatria. Comparamos o resultado obtido pela ferramenta com os resultados de referência de uma lista de termos obtida manualmente. Nessa comparação, são analisados bi-gramas e tri-gramas obtidos através de diferentes métodos. Concluímos o trabalho observando as vantagens do processamento com inclusão de informação lingüística complexa, como análise sintática e semântica

    Extracting compound terms from domain corpora

    Get PDF
    The need for domain ontologies motivates the research on structured information extraction from texts. A foundational part of this process is the identification of domain relevant compound terms. This paper presents an evaluation of compound terms extraction from a corpus of the domain of Pediatrics. Bigrams and trigrams were automatically extracted from a corpus composed by 283 texts from a Portuguese journal, Jornal de Pediatria, using three different extraction methods. Considering that these methods generate an elevated number of candidates, we analyzed the quality of the resulting terms according to different methods and cut-off points. The evaluation is reported by metrics such as precision, recall and f-measure, which are computed on the basis of a hand-made reference list of domain relevant compounds

    Symbolic Solution of Kronecker-based Structured Markovian Models

    No full text
    Abstract—This paper describes a method to obtain symbolic solution of large stochastic models using Gauss-Jordan elimination. Such solution is an efficient alternative to standard simulations and it allows fast and exact solution of very large and complex models that are hard to be dealt even with iterative numerical methods. The proposed method assumes the system described as a structured (modular) Markovian system with discrete states for each system module and transitions among those states ruled by Markovian processes. The mathematical representation of such system is made by a Kronecker (Tensor) formula, i.e., a tensor formulation of small matrices representing each system module transitions and occasional dependencies among modules. Preliminary results of the proposed solution indicate the expected efficiency of the proposed solution. Keywords—stochastic modeling; structured formalisms; performance evaluation methods; symbolic solution; tensor algebra; I

    Processamento de Linguagem Natural, Linguística de Corpus e Estudos Linguísticos: parcerias que já dão (muito) certo

    No full text
    Neste artigo apresentamos um exemplo de pesquisa que integra Processamento de Linguagem Natural (PLN) e Estudos Linguísticos com o objetivo de demonstrar que essa é uma associação possível e benéfica. Utilizamos uma ferramenta para extração de informações relevantes e para representação de conteúdo a partir de corpora em português, o ExATOlp. Nessa iniciativa foi utilizado como corpus o texto em português do Curso de Linguística Geral, para a investigação dos principais termos relacionados a conceitos importantes em Saussure
    corecore